eDNA 监测 数据 分 析 中 的 参考 数据 库 选 择 、 指 标 赋值 选择 、 目标 数据 
准备 一 一 以 鱼 类 为 监测 目标 


HAEN, 2s Sni, &BoxE! 
《1. 中 国 水 产科 学 研究 院 长 江水 产 研究 所 ， 农 业 农村 部 淡水 生物 多 样 性 保护 重点 实验 室 ， 湖 北 武汉 430223 
2 .南京 农业 大 学 无 锡 渔业 学 院 ， 江 苏 无 锡 214000) 


摘 要 : 基于 宏 条 形 码 (meta-barcoding) 的 eDNA 监测 技术 路 径 中 ，eDNA 测序 数据 的 分 析 和 注释 是 后 续 结 果 判 断 和 评估 的 基 
础 。 其 中 ， 参 考 数据 库 选 择 、 指 标 阔 值 选择 、 目 标 数据 准备 是 其 中 最 为 关键 的 三 个 细节 。 为 了 了 解 和 检验 这 三 个 细节 的 处 理 方 
案 的 影响 ,我 们 以 长 江 中 游 2 组 eDNA 监测 COI 基因 序列 数据 为 分 析 对 象 ， 针 对 鱼 类 的 检 出 做 了 三 组 实验 来 分 别 检验 1) 参考 
数据 库 及 各 物种 参考 序列 丰富 度 对 注释 结果 的 影响 , 2) OTU 聚 类 序列 相似 度 和 物种 注释 分 类 置信 和 度 对 注释 结果 的 影响 ，3) 
标 数据 中 各 物种 序列 丰富 度 对 注释 结果 的 影响 。 结 果 显示 : 1) 更 新 版 本 nt 库 注释 出 的 结果 有 向 好 趋势 但 不 明显 ， 每 个 物种 的 
参考 序列 丰富 度 越 高 注释 出 的 结果 越 全 面 ， 建 议 构建 尽 可 能 全 面 地 覆盖 本 地 物种 和 各 物种 内 的 核 昔 酸 变异 的 本 地 参考 数据 库 ; 
2) OTU 聚 类 序列 相似 度 阔 值 越 高 获得 的 OTU 越 精细 ， 注 释 分 类 置信 度 闵 值 越 高 注释 结果 越 精确 ， 此 两 者 有 联动 ， 针 对 COI 
基因 320 bp 的 序列 片段 ，0.99 和 0.9 分 别 是 其 两 者 的 推荐 值 ， 3) 目标 数据 中 各 物种 序列 丰富 度 越 高 注释 结果 越 全 面 ， 建 议 实 
践 应 用 中 增加 监测 目标 区 域 的 时 空 差异 性 重复 采样 。 
关键 词 : 环境 DNA， 宏 条 形 码 ， 参 考 数据 库 ，OTU 聚 类 序列 相似 度 ， 物 种 注释 分 类 置信 和 度 ， 闵 值 ， 长 江 中 游 ， 鱼 类 
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the sequence data analysis of eDNA monitoring -- taking fish as the target 
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Abstract: In meta-barcoding based eDNA monitoring technology, analysis and annotation of eDNA sequencing data is the basis for 
subsequent results judgment and evaluation. Among them, reference database selection, indicator threshold selection and target data 
preparation are the three most critical details. In order to understand and test the treatment of these three details and their influences, we 
took two sets of COI gene sequence data from eDNA monitoring in the middle reach of the Yangtze River as the analysis objects, and 
conducted three sets of experiments on fish detection to test 1) the influence of different reference databases and different reference 
sequence richness of each species on annotation results; 2) the influence of different OTU cluster sequence similarity and different 
species annotation classification confidence on annotation results; 3) the influence of different sequence richness of each species in the 
target sequence data sets on annotation results. The results showed that 1) there was little difference in annotated results among different 


versions of nt libraries from NCBI, and the higher the richness of reference sequence of each species, the more comprehensive annotated 
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results. It is suggested to construct a local reference database covering all the native species and all the nucleotide variation of each 
species. 2) The higher the similarity threshold of OTU clustering sequence, the finer OTU will be, and the higher the annotation 
classification confidence threshold, the more accurate annotation results will be. For the 320 bp target sequence fragments of COT gene 
in fishes, 0.99 and 0.9 are the recommended values respectively. 3) The higher the sequence richness of each species in the target 
sequence data, the more comprehensive the annotation results. It is suggested to increase the different temporal and spatial repeated 
samples in the monitoring target area in practical application. 

Keywords: environmental DNA; meta-barcoding; reference database; OTU clustering sequence similarity; species annotation 


classification confidence; threshold; middle Yangtze River; fish 


eDNA (environmental DNA) 是 指 从 环境 样品 (水体 、 土壤 、 沉积 物 、 空 气 、 混合 物 等 ) 中 提取 的 DNA, 
是 各 种 生物 的 DNA 混合 物 1。 从 环境 样品 中 提取 eDNA， 用 特定 DNA metabarcoding 引物 对 其 进行 扩 增 
测序 、 分 类 学 分 析 、 相 对 丰 度 分 析 、 功 能 预测 等 ， 可 以 监测 环境 中 物种 组 成 、 群 落 结构 、 生 态 功能 等 相关 
信息 中 1。 近年 来 随 着 metabarcoding 技术 的 成 熟 、 二 代 测 序 技术 成 本 的 下 降 51， 开 展 eDNA 监测 工作 有 向 
常态 化 发 展 的 趋势 和 ， 其 中 在 禁 捕 水 域 针 对 鱼 类 物种 组 成 及 资源 的 eDNA 监测 的 需求 最 为 迫切 。 

实现 eDNA 监测 工作 常态 化 的 前 提 是 实现 eDNA 监测 的 标准 化 " 引 。eDNA 监测 技术 链条 中 ，eDNA 
测序 结果 的 分 析 注 释 是 整个 监测 工作 后 续 结果 判断 和 评估 的 基础 中, 其 中 参考 数据 库 选 择 、 阔 值 指标 选择 、 

标 数 据 准 备 是 其 中 最 为 关键 的 三 个 需要 标准 化 的 细节 。 这 三 个 细节 虽然 先前 已 有 整体 性 论述 中 ， 先 前 的 

案例 研究 也 都 有 自己 的 选择 (参考 数据 库 以 NCBI 的 nt 数据 库 为 主 ， 小 部 分 进行 自 建 本 地 参考 数据 库 ; 
OTU 聚 类 的 序列 相似 度 以 0.97、0.99 为 主 ， 也 有 用 0.95、0.98、1.00 的 ; 物种 注释 中 的 序列 覆盖 度 取 值 
0.80、0.85、0.95， 序 列 一 致 性 取 值 有 0.95, 0.96, 0.97, 0.99, 1.00; 也 有 不 少 研究 不 标明 相关 细节 参数 ; 
随机 抽取 的 一 些 案例 研究 相关 信息 见 附 表 1)， 但 要 满足 具体 的 标准 化 ， 尚 需 具 体 定 量 比较 分 析 。 

针对 这 三 个 细节 的 标准 化 需求 ， 本 研究 以 长 江 中 游 2H eDNA 监测 COI 基因 序列 数据 为 分 析 对 象 ， 
针对 鱼 类 的 检 出 做 了 三 组 实验 来 分 别 检验 1) 参考 数据 库 及 各 物种 参考 序列 丰富 度 对 注释 结果 的 影响 , 2) 
OTU 聚 类 序列 相似 度 和 物种 注释 分 类 置信 度 对 注释 结果 的 影响 ，3) 目标 数据 中 各 物种 序列 丰富 度 对 注释 
结果 的 影响 ， 并 尝试 给 出 相关 建议 。 


1 材料 方法 
1.1 两 个 数据 集 的 来 源 

2020 年 6 月 在 长 江 中 游 的 30 个 采样 断面 采集 eDNA 样品 ,委托 上 海 美 吉 生物 医药 科技 有 限 公 司 用 线 
FH cor 基因 的 扩 增 子 (引物 为 mICOIintFjgHCO2198R) 进行 二 代 高 通 量 测序 ， 获 得 长 江 中 游 eDNA 数 
据 集 由。2020 年 9 月 在 长 江 武汉 江 段 的 1 个 采样 断面 连续 13 天 采集 eDNA 样品 ， 委 托 上 海 美 吉 生 物 医 药 
科技 有 限 公 司 用 线粒体 COI 基因 的 扩 增 子 ( 引 物 为 mICOIintF/jgHCO2198RO 进行 二 代 高 通 量 测序 ， 获 得 
长 江 中 游 eDNA 数据 集 00.。 相 关 序 列 原始 数据 已 存 于 国家 基因 库 生 命 大 数据 平台 (China National GeneBank 
DataBase, CNGBdb, https://db.cngb.org/) 的 长 江 中 游 eDNA 序列 文件 夹 中 〈 项 目 编号 : CNP0002410, DOI: 
10.26036/CNP0002410). 
1.2 本 地 数据 库 的 构建 

根据 “长 江 渔业 资源 与 环境 调查 〈2017-2021) ”所 整理 出 的 长 江 鱼 类 名 录 004， 在 NCBI. 数据 库 中 搜集 
各 物种 的 线粒体 COI 基因 序列 ， 并 基于 2021 年 在 长 江 渔业 资源 与 环境 调查 中 所 捕捞 采集 的 各 种 鱼 类 的 鱼 
条 样品 ， 通 过 DNA 提取 、 用 线粒体 COI 基因 的 宏 条 形 码 引物 mICOIintF/jgHCO2198R 进行 PCR 扩 增 、 
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送 武 汉 天 一 辉 远 生物 科技 有 限 公 司 进行 序列 测定 ， 获 得 相关 鱼 类 物种 的 线粒体 CO 序列， 整合 构建 本 地 


针对 长 江 中 游 鱼 类 的 线粒体 COI 基因 的 宏 条 形 码 引 物 mlICOIintF/jgHCO2198R 参考 数据 库 。 本 地 参考 数 


据 库 包括 从 NCBI 搜集 获得 的 长 江 物 种 名 录 


H 236 个 物种 共 1741 条 线粒体 COI 序 列 ( 截 至 2022 年 3 H), 


以 及 本 研究 自行 扩 增 、 测 序 所 得 的 115 种 共 299 条 线粒体 COI 序列 ， 共 计 281 种 2040 条 序列 ， 隶 属于 18 


41 科 149 属 ( 附 表 2)。 


1.3 不 同 参 考 数据 库 的 注释 结果 对 比 


利用 美 吉 生 物 
数据 、 长 江 武 


https://ccb.jhu.edu/software/FLASH/index.shtml) ~ OTU 


云 平台 (www.majorbio.com)2022 年 更 新 的 分 析 计 算 模块 ， 对 长 江 中 游 eDNA 监测 CO7 


汉 段 eDNA 监测 cor 数据 进行 质 控 、 拼 接 ( 用 
聚 类 ( 用 


UPARSE 


FLASH version 1.2.11 
71.0.1090 


version 


http://driveS.com/uparse/, 取 99% 的 序列 相似 度 )、 物 种 注释 (分 别 比 对 NCBI 核酸 序列 数据 库 nt. v20200604 


nt_v20210917 库 、 


nt v20221012 Æ, XH Blast 算法 ， 取 90% 的 分 类 置信 度 ， 即 序列 一 致 性 和 序列 覆盖 度 


WEIR 90%)， 获 得 注释 结果 ， 和 筛选 出 硬 骨 鱼 纲 (Actinopteri) 结 果 ， 进 行 不 同 参考 数据 库 所 获得 注释 结果 


的 对 比分 析 。 


1.4 各 物种 不 同 参 考 序列 丰富 度 的 注释 结果 对 比 

将 本 研究 所 构建 的 本 地 参考 数据 库 命名 为 本 地 多 序列 参考 库 , 从 本 地 多 序列 参考 库 中 针对 每 一 个 物种 
序列 构建 本 地 单 序 列 参考 库 。 利 用 美 吉 生 物 云 平台 (wwwmajorbio.com)2022 年 更 新 的 分 
析 计 算 模块 ,对 长 江 中 游 aeDNA 监测 CO7 数据 ,长 江 武汉 段 ADNA 监测 COI 数据 进 行 质 控 、 拼 接 (用 FLASH 


随机 抽取 一 条 参考 


version 1.2.11 https://ccb.jhu.edu/software/FLASH/index.shtml), OTU 聚 类 (用 U 


PARSE version 7.0.1090 


http://drive5.com/uparse/， 取 99% 的 序列 相似 度 )、 物 种 注释 (分 别 比 对 本 地 单 序列 参考 库 、 本 地 多 序列 参考 


库 ， 采 用 RDP classifier IH} 
类 置信 和 度 )， 获 得 注 


有 算法 version 2.11 https://sourceforge.net/projects/rdp-classifier/， 取 90% 的 分 


FE 释 结果 ， 进 行 不 同 参考 数据 库 所 获得 注释 结果 的 对 比分 析 。 


1.5 不 同 OTU 聚 类 序列 相似 度 和 物种 注释 分 类 置信 度 的 注释 结果 对 比 


利用 美 吉 生 物 
数据 、 长 江 武 


https://ccb.jhu.edu/software/FLASH/index.shtml) ~、 OTU 


云 平台 (www.majorbio.com)2022 年 更 新 的 分 析 计 算 模块 ， 对 长 江 中 游 eDNA 监测 CO7 


汉 段 eDNA 监测 Cor 数据 进行 质 控 、 拼 接 ( 用 
聚 类 ( 用 


http://drive5.com/uparse/)、 物 种 注释 (分 别 比 对 NCBI 核酸 序列 数据 库 nt_v202210 


AS 


& 0.9, 0.99 & 0.9, 
考 数据 库 所 获得 注 


UPARSE 


FLASH version 1.2.11 
7.0.1090 
12 JÆ, 3H Blast 算法 )， 


version 


F OTU 聚 类 序列 相似 度 和 物种 注释 分 类 置信 度 的 取 值 规则 及 常用 取 值 ,对 OTU 聚 类 序列 相似 度 和 物种 
注释 分 类 置信 度 〈 即 序列 一 致 性 和 序列 覆盖 度 ， 两 者 取 同 一 个 值 ) 取 值 设 定 5 个 组 合 ，0.999 & 0.99、0.999 


0.97 & 0.8. 0.9 & 0.8， 获 得 注释 结果 ， 筛 选 出 硬 骨 鱼 纲 (Actinopteri) 结 果 ， 进 行 不 同 参 


释 结果 的 对 比分 析 。 


1.6 目标 数据 中 各 物种 不 同 序列 丰富 度 的 注释 结果 对 比 
构建 的 本 地 单 序 列 参考 库 、 本 地 多 序列 参考 库 分 别 构建 两 个 目标 数据 。 考 虑 到 在 分 析 计 


基于 本 研究 所 


算 步骤 中 的 OTU 聚 类 环节 默认 去 除 无 重复 序列 ,所 以 在 构建 目标 数据 过 程 中 对 参 


利用 美 吉 生 物 云 平 


十 


考 序列 进行 了 7 倍 重复 。 


台 (www.majorbio.com)2022 年 更 新 的 分 析 计 算 模 块 ， 对 所 构建 的 两 个 目标 数据 进行 质 控 、 


~ 


Blast 算法 )， 对 


拼接 (用 FLASH version 1.2.11 https://ccb.jhu.edu/software/FLASH/index.shtml), OTU 聚 类 (用 UPARSE 
ersion 7.0.1090 http://drive5.com/uparse/)、 物 种 注释 (分 别 比 对 NCBI 核酸 序列 数 # 


HÆ nt_v20221012 库 ， 采 


OTU 聚 类 序列 相似 度 和 物种 注释 分 类 置信 度 〈 即 序列 一 致 性 和 序列 覆盖 度 ， 两 者 取 同 


进行 不 同 参考 数据 


库 所 获得 注释 结果 的 对 比分 析 。 


一 个 值 ) 取 值 设 定 2 个 组 合 ，0.999 & 0.9. 0.99 & 0.9， 获 得 注释 结果 ， 和 筛选 出 硬 骨 人 鱼 纲 (Actinopteri) 结 果 ， 


2 结果 


2.1 参考 数据 库 及 各 物种 参考 序列 丰富 度 对 注释 结果 的 影响 


针对 两 个 数据 外 


能 够 比 对 得 上 的 OTU 数量 越 多 〈( 即 比 对 脱衣 的 越 少 )， 所 得 注释 结果 也 
表 1 不 同 版 本 nt 参考 数据 库 对 注释 结果 的 


Table 1 The influence of different visions of nt reference databases from NCBI on annotation results 


影响 


进行 的 三 个 nt 参考 数据 库 注释 结果 对 比分 析 显 示 ， 三 个 nt 参考 数据 库 注释 结果 差异 
不 大 ， 但 整体 上 来 说 最 新 版 的 nt 参考 数据 库 注释 结 呈 


本 地 参考 数据 库 注释 结果 对 比分 析 显 示 , 参考 库 中 每 个 物种 的 


果 会 趋势 性 更 好 《〈 表 1)。 针 对 两 个 数据 集 进行 的 两 个 
参考 序列 越 丰 富 对 


物种 内 序列 变异 覆盖 越 全 ， 
越 全 面 〈 表 2)。 


数据 集 参考 数据 库 OTU 聚 类 序列 相似 | 物种 注释 分 类 置信 | 注释 所 得 鱼 类 物种 | 注释 所 得 鱼 类 
度 度 数 OTU 数 

长 江 中 游 eDNA | nt v20200604 Æ | 0.99 0.9 25 44 

监测 col 数据 nt_v20210917 库 | 0.99 0.9 29 47 
nt_v20221012 库 | 0.99 0.9 28 48 

长 江 武 汉 段 eDNA | nt v20200604 FE | 0.99 0.9 30 87 

监测 CO1 数据 nt_v20210917 库 | 0.99 0.9 31 85 
nt_v20221012 库 | 0.99 0.9 31 86 

i: 物种 注释 分 类 置信 度 ， 即 用 Blast 算法 的 序列 一 致 性 和 序列 覆盖 度 ， 两 者 取 同 一 个 值 


表 2 各 物种 参考 序列 


Table 2 The influence of different reference sequ 


富 度 对 注释 结果 的 影响 


ence richness of each species on annotation results 


数据 集 参考 数据 库 OTU 聚 类 序列 相似 | 物种 注释 分 类 置信 | 注释 所 得 鱼 类 物种 | 注释 所 得 鱼 类 
度 度 数 OTU 数 
长 江 中 游 eDNA | 本 地 单 序列 参考 库 | 0.99 0.9 22 46 
监测 COL 数据 本 地 多 序列 参考 库 | 0.99 0.9 26 129 
长 江 武 汉 段 eDNA | 本 地 单 序列 参考 库 | 0.99 0.9 25 65 
监测 COL 数据 本 地 多 序列 参考 库 | 0.99 0.9 33 291 
2.2 OTU 聚 类 序列 相似 度 和 物种 注释 分 类 置信 度 对 注释 结果 的 影响 
对 不 同 OTU 聚 类 序列 相似 度 和 物种 注释 分 类 置信 度 取 值 组 合 所 获得 的 硬 骨 鱼 纲 注 释 结果 对 比分 析 结 
RER, OTU 聚 类 序列 相似 度 闵 值 越 高 ， 所 获得 的 相应 OTU 数量 越 多 ， 物 种 注释 分 类 置信 和 度 闵 值 越 高 ， 


表 3 OTU RŽ 


相关 OTU 匹配 到 相应 参考 序列 上 的 越 少 ( 表 3)。 整 体 来 看 ，OTU 聚 类 序列 相似 
取 值 组 合 为 0.999 & 0.9 和 0.99 & 0.9 时 ， 能 够 获得 相对 充分 的 OTU 和 相对 全 面 


序列 相似 度 和 物种 沪 


ERE S BL BOSE 


的 物种 〈 表 3 )。 


E 释 结果 的 影响 


度 和 物种 注释 分 类 置信 度 


Table 3 The influence of different OTU cluster sequence similarity and different species annotation classification 


confidence on annotation results 


数据 集 参考 数据 库 OTU 聚 类 序列 相似 | 物种 注释 分 类 置信 | 注释 所 得 鱼 类 物种 | 注释 所 得 鱼 类 
度 度 数 OTU 数 
长 江 中 游 eDNA | nt v20221012 Æ | 0.999 0.99 26 201 


监测 CO1 数据 nt_v20221012 库 | 0.999 0.9 26 238 
nt_v20221012 库 | 0.99 0.9 28 48 
nt v20221012 Æ | 0.97 0.8 27 21 
nt v20221012 库 | 0.9 0.8 19 19 
长 江 武汉 段 eDNA | nt v20221012 Æ | 0.999 0.99 26 160 
监测 col 数据 nt v20221012 库 | 0.999 0.9 26 167 
nt v20221012 库 | 0.99 0.9 31 86 
nt v20221012 库 | 0.97 0.8 30 36 
nt v20221012 Æ | 0.9 0.8 16 16 
ik: 物种 注释 分 类 置信 度 ， 即 用 Blast 算法 的 序列 一 致 性 和 序列 覆盖 度 ， 两 者 取 同 一 个 值 


2.3 目标 数据 中 各 物种 序列 丰富 度 对 注释 结果 的 影响 
基于 本 地 单 序列 参考 库 、 本 地 多 序列 参考 库 所 构建 的 两 个 目标 数据 开展 的 OTU 聚 类 和 物种 注释 分 析 
对 比 结果 显示 ， 目 标 数据 中 各 物种 的 序列 丰富 度 越 高 ， 注 释 所 得 的 物种 越 全 面 〈 表 4)。 同 时 ， 结 果 也 验 
证 OTU 聚 类 序列 相似 度 越 高 , 所 获得 的 OTU 越 精细 , OTU 数量 也 越 多 , 进而 注释 所 得 的 物种 也 越 全 面 ， 
在 算 力 允 许 的 情况 下 OTU 聚 类 序列 相似 度 和 物种 注释 分 类 置信 度 取 值 组 合 推荐 0.999 & 0.9 和 0.99 & 0.9 
都 尝试 分 析 计 算 一 下 ， 最 后 取 最 优 值 ( 表 4)。 
表 4 目标 数据 中 各 物种 序列 丰富 度 对 注释 结果 的 影响 


Table 4 The influence of different sequence richness of each species in target sequence data on annotation results 


CN 数据 集 OTU 聚 类 序列 | 物种 注释 分 类 置 | 注释 所 得 鱼 类 物 | 注释 所 得 鱼 类 
e 相似 度 信 度 种 数 OTU 数 
Et 本 地 单 序列 参考 库 -7 倍 重复 (281 个 物种 ，281 | 0.999 0.9 257 271 
条 序列 ，7 倍 重复 ) 0.99 0.9 240 248 
i 本 地 多 序列 参考 库 -7 倍 重复 (281 个 物种 ，2040 | 0.999 0.9 275 853 
C 条 序列 ，7 倍 重复 ) 0.99 0.9 257 444 
ik: 物种 注释 分 类 置信 度 ， 即 用 Blast 算法 的 序列 一 致 性 和 序列 覆盖 度 ， 两 者 取 同 一 个 值 


3 讨论 

如 果 物 种 注释 使 用 NCBI 的 nt 库 ， 推 荐 使 用 最 新 版 本 ， 如 果 使 用 本 地 参考 数据 库 ， 建 议 本 地 参考 数据 
库 尽 可 能 全 面 地 覆盖 本 地 物种 及 各 物种 内 的 核 苷 酸 变 异 。NCBI 的 nt 库 有 更 新 ， 虽 然 更 新 有 限 ， 但 更 新 版 
的 nt 参考 数据 库 注 释 结果 会 趋势 性 更 好 ， 推 荐 使 用 最 新 版 本 《〈 表 1)。 相 比 截 至 目前 长 江 有 记录 的 458 种 
(包括 外 来 种 ) 鱼 类 中 ，nt 库 中 还 有 222 种 鱼 类 缺少 线粒体 cOI 基因 的 扩 增 子 〈 引 物 为 
mlCOlintF/gHCO2198RO 对 应 的 参考 序列 ， 某 些 物 种 虽然 已 经 有 了 相关 参考 序列 ， 但 整体 上 序列 数量 还 
比较 少 。 如 果 参 考 序列 未 能 有 效 履 盖 该 物种 的 种 内 变异 , 就 容易 导致 在 比 对 注释 过 程 中 目标 序列 的 脱 靶 ( 表 
2)。 为 了 克服 nt 库 中 参考 序列 的 不 足 ， 可 以 构建 本 地 参考 数据 库 ， 较 快速 便捷 地 更 新 补充 相关 物种 的 参 
考 序列 ， 尽 可 能 全 面 地 覆盖 各 物种 的 种 内 变异 。 在 本 地 数据 库 构 建 方面 ， 南 京 农业 大 学 等 10 余 所 高 校 及 
科研 院 所 合作 构建 的 中 国 淡水 大 型 底 栖 无 硝 椎 动物 条 形 码 数 据 库 是 类 似 工作 的 先行 者 (1。 本 研究 所 试验 性 
初步 构建 的 长 江 鱼 类 条 形 码 本 地 参考 数据 库 将 作为 共享 本 地 数据 库 供 各 相关 研究 者 使 用 【金山 文档 】 长 
江 鱼 类 COI 基因 条 形 码 -持续 更 新 https://kdocs.cn/1/ca4C2LV28QU7， 以 所 有 人 可 访问 可 下 载 可 编辑 的 在 线 
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文档 
鱼 类 


0.9 这 个 参数 组 合 ， 然 后 用 两 组 参数 组 合 结果 中 的 最 优 者 。 不 同类 群 物种 间 的 差异 程度 有 差异 ， 不 同 物种 


内 的 


形式 简单 共享 ， 执 行 CC-BY-4.0 协议 )， 后 续 我 们 将 基于 我 们 已 有 的 长 江 鱼 类 标本 库 持 续 补 充 各 长 江 
的 参考 序列 ， 也 欢迎 各 相关 研究 者 对 相关 参考 序列 进行 持续 补充 。 
OTU 聚 类 序列 相似 度 和 物种 注释 分 类 置信 度 建 议 分 别 取 0.99 & 0.9, 如 果 算 力 允 许 , 可 同时 取 0.999 & 


变异 程度 也 有 差异 ， 所 以 在 OTU 聚 类 和 物种 注释 过 程 中 所 适宜 的 参数 设置 也 会 有 差异 。 比 如 针对 纪 


PST 


线粒体 16S rRNA 基因 的 参数 取 值 (比如 0.97 & 0.8 D 通常 低 于 针对 真 核 生物 的 COI 基因 的 参数 取 


值 〈 
注释 


对 注 


比如 0.99 & 0.97 00)。OTU 聚 类 时 序列 相似 度 设置 越 高 ， 聚 类 形成 的 OTU 数目 就 越 多 中。 序列 比 对 
的 分 类 置信 和 度 设置 得 偏 低 , 往往 会 出 现 把 某 一 物种 的 序列 错误 匹配 到 序列 相似 的 另 一 物种 上 ; 序列 比 
笃 的 分 类 置信 度 设 置 得 很 高 ， 往 往 会 出 现 一 些 通过 比 对 无 法 与 参考 数据 库 中 的 任 一 序列 形成 匹配 的 


£ 


OTU 序列 机。 本 研究 针对 鱼 类 CCO 基因 上 的 320 bp 大 小 的 片段 )， 对 OTU 聚 类 序列 相似 度 和 物种 注释 


分 类 
结果 
在 算 


ax 


类 组 
内 变 
提升 
者 几 


置信 度 取 值 设 了 5 个 组 合 ，0.999 & 0.99, 0.999 & 0.9、0.99 & 0.9. 0.97 & 0.8. 0.9 & 0.8， 最 终 研 究 
显示 〈 表 3)，0.99 & 0.9 可 能 是 相对 合适 的 OTU 聚 类 序列 相似 度 和 物种 注释 分 类 置信 度 取 值 组 合 ， 
力 人 允许 的 情况 下 OTU 聚 类 序列 相似 度 和 物种 注释 分 类 置信 度 取 值 组 合 推荐 0.999 & 0.9 和 0.99 & 0.9 
试 分 析 计 算 一 下 ， 最 后 取 最 优 值 。 
进行 有 一 定时 空 差异 的 重复 采样 增加 目标 数据 的 丰富 度 ， 可 获得 更 全 面 的 注释 结果 。 对 于 关注 鱼 类 种 
成 的 eDNA 监测 来 讲 , 核心 在 于 检 出 相关 物种 , 无 论 是 通过 提升 参考 序列 的 丰富 度 履 盖 尽 可 能 多 的 种 
异 ， 使 得 eDNA 所 监测 到 的 各 物种 的 特定 变异 序列 都 能 够 找到 可 匹配 的 参考 序列 〈 表 2)， 还 是 通过 
eDNA 所 监测 到 的 各 物种 的 种 内 变异 数量 ， 使 得 eDNA 所 监测 到 的 各 物种 的 种 内 变异 中 总 有 一 个 或 
个 能 够 匹配 到 参考 序列 上 〈 表 4)， 都 能 够 达到 物种 检 出 的 目的 。 因 此 对 于 目标 区 域 目标 物种 存在 一 


定 种 


域 的 


参考 


[1] 


[2] 


内 变异 ， 同 时 参考 数据 库 里 的 参考 序列 对 种 内 变异 的 覆盖 度 不 是 很 高 的 情况 下 ， 可 以 通过 增加 目标 
时 空 差异 性 重复 采样 ， 以 增加 目标 数据 的 丰富 度 以 获得 更 全 面 的 注释 结果 。 
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